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大 规模 众 核 体系 结构 的 并 行 模拟 


叶 笑 春 范 东 蹇 陈 明 宇 吕 慧 伟 


摘要 : 随 着 芯片 内 部 处 理 器 核 数 的 增多 ， 多 核 处 理 器 逐渐 有 向 众 核 方向 发 展 的 趋势 。 而 众 核 这 一 全 新 的 体 
系 结构 给 计算 机 模拟 带 来 了 挑战 。 串 行 模拟 已 经 难以 满足 速度 的 需求 ， 必 须 充 分 利用 现 有 并 行 宿 主机 的 多 
核资 源 ， 在 保证 不 损失 模拟 精度 的 前 提 下 提升 模拟 速度 。 本 文 以 众 核 和 众 核 集群 两 种 体系 结构 为 例 ， 说 明 
并 行 模拟 技术 在 计算 机 并 行 体系 结构 模拟 中 的 必要 性 和 可 行 性 ， 在 众 核 模 拟 中 ， 做 到 精度 不 变 ， 模 拟 速度 
提升 10 倍 ， 在 众 核 集群 模拟 中 ， 所 模拟 的 处 理 器 小 核 总 数 达 到 千 核 规模 ， 并 实现 了 混合 的 编程 运行 环境 ， 
为 该 结构 的 可 扩展 性 测试 提供 了 基础 。 


关键 词 ， 众 核 众 核 集群 并 行 模拟 


1 引言 


在 处 理 器 体系 结构 的 研究 中 ， 模 拟 器 占有 举足轻重 的 地 位 。 模 拟 器 技术 贯穿 于 整个 系统 
开发 的 过 程 之 中 : 开发 前 期 使 用 模拟 器 进行 粗 粒度 模拟 ， 以 选择 出 最 优 的 解决 方案 ; 开发 期 
间 对 各 种 微 结构 进行 验证 ; 开发 后 期 用 模拟 器 进行 软件 开发 及 测试 。 在 整个 硬件 系统 投入 运 
行 后 ， 还 可 以 基于 模拟 器 获取 单纯 依靠 硬件 系统 无 法 得 到 的 放 析 〈profiling) 信息 ， 对 系统 
进行 瓶颈 分 析 及 性 能 优化 。 在 计算 机 基础 研究 过 程 中 , 模拟 器 可 以 模拟 出 各 种 现 有 体系 结构 
甚至 未 来 的 新 型 体系 结构 ， 从 而 可 以 促进 微 结 构 和 系统 软件 的 研究 。 模 拟 器 具有 可 控 及 可 重 
复 等 优点 ， 所 以 是 洞察 系统 行为 的 重要 工具 。 


衡量 模拟 器 性 能 主要 有 两 个 指标 : 模拟 速度 和 模拟 精度 。 在 传统 的 串 行 模拟 中 ， 这 两 个 
指标 往往 不 可 兼 得 ， 提 高 模拟 速度 通常 会 导致 模拟 精度 的 损失 ， 反 之 亦 然 。 所 以 ， 如 何 实 现 
一 个 在 保证 模拟 速度 的 同时 ， 又 能 够 保证 模拟 精度 达到 预期 的 模拟 器 是 一 个 值得 研究 的 问 
题 。 而 在 当前 并 行 计算 资源 丰富 的 情况 下 ， 并行 模 拟 显 然 是 一 个 可 行 的 方案 。 引入 并 行 框架 
后 ， 如 何 进一步 模拟 更 大 规模 的 众 核 体系 结构 ， 实 现 干 核 模拟 的 目标 , 也 是 本 文 关注 的 一 个 


重要 问题 。 
2 ”相关 工作 


2.1 Graphite 

Graphite 模拟 器 是 美国 麻 省 理工 学 院 在 2010 年 发 布 的 开源 模拟 器 叫 ， 目标 性 能 在 100 至 
200 的 减速 比 之 间 。 它 的 主要 特点 是 使 用 松散 的 同步 机 制 ， 用 牺牲 模拟 精度 的 方法 来 提高 模 
拟 速度 。 
2.1.1 Graphite 的 执行 方式 

Graphite 是 一 个 快速 的 ， 高 层 Chigh-level) 的 大 规模 多 核 横 拟 器 。 对 于 在 模拟 器 上 运行 
的 应 用 程序 来 说 ， 它 对 自己 运行 在 什么 样 的 宿主 机 上 是 完全 不 知情 的 。 宿 主机 可 以 是 一 个 


Ee 


+ 
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SMP 的 多 核 机 器 ， 也 可 以 是 一 个 集群 ， 而 不 需要 对 应 用 进行 任何 的 修改 。 这 与 SimK 并 行 
模拟 框架 外 很 相似 。 在 SimK 中 ， 单 个 宿主 机 和 集群 宿主 机 上 运行 同一 个 测试 程序 ， 并 不 需 


要 对 模拟 的 程序 进 


可 。 


在 Graphite : 


映射 到 所 模拟 的 处 到 
者 多 个 线程 被 映射 到 进程 ， 


运行 在 不 同 的 宿 3 


序 的 每 个 线程 都 被 
器 核 上 ， 可 以 有 一 个 或 


， 多 个 进程 可 以 


FE 机 上 上， 也 可 以 运行 在 同一 


个 宿主 机 上 。 所 以 Graphite 是 一 个 两 级 并 行 


的 模拟 架构 。 


另外 ,Graphite 使 


动态 的 二 进 制 翻译 器 


产生 指令 ， 并 对 应 用 程序 的 数据 访问 进行 了 
优化 。 它 将 应 用 程序 的 地 址 空间 静态 划分 到 


缓存 到 本 地 的 内 存 J 


不 同 宿 主机 上 ， 并 将 与 该 地 址 空间 相关 的 数 
据 安置 在 相应 的 宿主 机 上 ， 频 繁 访问 的 数据 
EF， 这 就 解决 了 对 在 不 同 


宿主 机 上 数据 的 频繁 访问 可 能 形成 瓶颈 的 问 


题 。 


2.1.2 Graphite 的 同步 


Graphite 提供 了 三 种 不 同 的 同步 模型 ， 


起 5 
Lax 同步 


这 种 同步 方式 只 在 应 月 


口 


E 序 中 发 生 同 步 事 作 


[a 


行 任何 修改 ， 只 需要 修改 模拟 器 调用 的 SimK 的 应 用 程序 接口 (API) 即 


目标 多 核 


宿主 机 


图 1。Graphite 三 层 结构 示意 图 


用 户 可 以 


民 据 自己 的 需要 选择 适合 自己 的 同步 方 


FE 时 (包括 栓 锁 (locks)、 栅 栏 (barriers)、 通 


过 消息 传递 应 用 程序 接口 接收 消息 、 线 程 产生 和 结束 ) 才 同 步 局 部 时 钟 ， 因 此 同步 次 数 少 ， 
同步 开销 是 最 小 的 ， 模 拟 的 减速 比 也 最 小 。 但 这 些 事件 可 以 乱 序 发 生 ， 所 以 这 样 做 会 使 模拟 


的 精度 变 差 。 


LaxP2P 


这 是 一 种 很 有 特点 的 同步 方式 。 人 们 经 过 观察 发 现 ， 时 间 不 精确 的 主要 原因 是 由 少数 线 


LaxBar 


这 是 一 种 类 似 于 栅栏 的 同步 方式 。 每 过 若干 个 周 
保证 核 之 间 得 到 充分 的 同步 ， 而 且 当 同 步 周 期 间隔 等 于 1 时 ,整个 模拟 器 可 以 达到 时 钟 精 有 


程 造 成 的 ， 因 此 ， 可 以 每 过 若干 个 时 钟 周期 〈cycles) 让 每 个 目标 核 随机 与 另 一 个 核 组 合成 
一 对 做 比较 ， 如 果 两 者 周期 数 相 差 太 多 ， 则 有 周 
方式 能 够 获得 较 好 的 性 能 ， 同 时 也 能 获得 较 好 


期 数 大 的 核 暂停 运行 一 段 时 间 。 使 用 这 种 同步 
的 模拟 精度 。 


期 ， 所 有 目标 核 进行 一 次 同步 。 这 可 以 


的 模拟 精度 。 但 这 种 频繁 的 同步 方式 会 直接 导致 性 能 的 下 降 。 


2.2 Cotson 
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第 9 卷 第 6 期 信息 技术 快报 Vol.9 No.6 
Information Technology Letter Nov. 2011 
COTson 是 惠普 公司 基于 AMD 的 SimNow 模拟 器 开发 的 全 系统 模拟 架构 后 。 它 可 以 模拟 
单 核 、 多 核 甚至 带 互 联网 络 的 集群 。 模 拟 器 的 结构 “可 拆卸 ” 意味 着 用 户 可 以 用 自己 的 设 
计 来 替换 掉 原 有 模块 。 
COTson 的 一 个 设计 原则 是 速度 和 精确 度 的 权衡 与 折 中 ， 即 可 以 牺牲 模拟 的 精度 来 换取 
精度 ， 或 反之 。 这 是 时 下 较为 流行 的 设计 原则 。 随 着 众 核 的 兴起 ， 模 拟 规模 随 之 增 大 ， 如 何 
在 可 以 容忍 的 时 间 内 完成 大 规模 模拟 也 成 为 一 个 研究 热点 ， 因 此 这 种 折 中 非常 必要 。 
2.2.1 COTson 中 的 模拟 技术 
COTson 使 用 SimNow 虚拟 机 做 功能 模拟 ， 使 用 自己 开发 的 时 序 后 端 来 确定 模拟 目标 的 
性 能 。COTson 的 目标 是 实现 大 规模 的 全 系统 模拟 ， 为 了 提高 速度 ,采用 了 采样 (“Sampling) 
这 种 在 快速 模拟 中 经 常 使 用 的 技术 。 采 样 的 方法 是 将 采样 机 制 和 模拟 器 耦合 , 采集 模拟 器 中 
运行 的 指令 和 访 存 信息 ， 再 将 这 些 信息 传 给 时 序 后 端 ， 从 而 快速 得 到 时 序 信息 。 


2.2.2 COTson 中 的 同步 


在 众 核 模 拟 中 ， 目 前 采用 较 多 的 方法 是 并 行 离散 事件 模拟 算法 (PDES: parallel discrete 
event simulation〉 外 ， 但 是 精确 的 并 行 离散 事件 模拟 算法 会 在 同步 时 产生 较 大 的 额外 开销 ， 
拖 慢 模拟 器 运行 速度 。 这 在 大 规模 模拟 中 是 一 个 比较 严重 的 问题 , 所 以 在 一 些 不 注重 时 序 精 
确 性 的 模拟 器 中 就 会 对 该 算法 进行 改进 ， 牺 牲 部 分 精度 来 换取 更 快 的 模拟 速度 。 


COTson 中 使 用 的 同步 方法 是 动态 地 调整 同步 粒度 。 顾 名 思 义 ,“ 动 态 ”的 意思 就 是 那些 
不 关心 的 模拟 部 分 就 用 较 大 粒度 同步 ， 而 较为 关心 的 模拟 部 分 用 较 小 的 同步 粒度 ， 以 换 来 更 
快 的 模拟 速度 。 


从 COTson 中 采样 和 同步 这 两 个 很 重要 的 模拟 技术 来 看 ， 可 以 说 COTson 最 主要 的 思想 
是 找到 我 们 关心 的 模拟 点 ， 放 宽 不 重要 部 分 的 精度 要 求 ， 达 到 精准 和 速度 兼顾 的 目的 。 


2.3 其 他 


BGLsimt 是 IBM 开发 的 BlueGene/L 模拟 器 ， 运 行 在 真实 的 Linux 集群 系统 上 ， 多 节点 
通信 使 用 MPI "实现 。BGLsim 模拟 了 大 规模 集群 系统 BlueGene/L 的 所 有 硬件 ， 在 这 层 虚 拟 
人 硬件 上 运行 BlueGene/L Linux 系统 ， 其 上 提供 了 移植 的 BlueGene/L MPI 库 。 


MPLSIMI 是 美国 加 州 大 学 洛杉矶 分 校 开 发 的 一 个 MPI 库 ， 主 要 用 来 测试 、 调 试 以 及 预 
测 并 行程 序 在 各 种 体系 结构 下 的 表现 ， 它 可 以 根据 目标 系统 的 参数 特征 给 出 不 同 的 模拟 结 
果 ， 主 要 参数 包括 处 理 器 个 数 以 及 通信 延迟 。MPI-SIM 是 一 个 并 行 模拟 器 ， 它 还 提供 了 一 
种 新 的 保守 同步 算法 ， 减 少 了 同步 的 开销 和 频率 。 


Simicst" 最 初 由 瑞典 计算 机 科学 研究 所 开发 ， 是 一 个 全 系统 模拟 器 ， 可 以 模拟 众多 平台 ， 
并 可 无 修改 地 运行 多 种 操作 系统 。Simics 可 模拟 多 种 指令 集 架 构 ， 并 拥有 丰富 的 外 设 支 持 ， 
在 并 行 方面 ，Simics 也 提供 了 基于 Link 机 制 的 并 行 模拟 方法 。 


3 ” 众 核 模拟 


上 述 提 到 的 一 些 模 拟 器 都 有 着 各 自 的 特点 ， 而 我 们 在 众 核 模拟 方面 也 进行 了 自己 的 尝 
试 。 我 们 前 期 在 并 行 框 架 以 及 众 核 模拟 方面 有 着 一 定 的 积累 ， 开 发 了 串 行 的 众 核 Godson-T 


”Message Passing Interface， 一 种 基于 消息 传递 的 并 行程 序 设 计 标 准 
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模拟 器 (GAS) 以 及 SimK 并 行 模 拟 框架 所 。 为 了 进一步 加 速 众 核 模 拟 的 速度 ， 我 们 借助 
于 SimK 将 GAS 模拟 器 直接 并 行 化 ， 得 到 一 个 在 模拟 速度 和 模拟 精度 两 个 方面 都 能 兼顾 的 
并 行 众 核 模 拟 器 : P-GAS 。 


3.1 SimK 并 行 模拟 框架 

SimK 是 一 款 为 了 支持 高 效 并 行 模拟 所 ， 并 最 大 限度 地 支持 通用 性 、 可 用 性 而 设计 的 
源 并 行 模拟 框架 。 它 满足 超大 规模 支持 、 高 可 扩展 性 、 异 构 宿主 机 支持 、 接 口 通用 性 和 简洁 
性 等 方面 的 支持 。 


SimK 使 用 并 行 离散 事件 模拟 算法 同步 机 制 。 该 算法 的 同步 机 制 的 核心 思想 是 如 果 系 统 
中 任何 局 部 都 是 同步 的 ， 则 整个 系统 就 是 同步 的 。SimK 采用 的 是 保守 并 行 离散 事件 模拟 算 
法 同步 方案 。 即 局 部 因果 关系 需要 严格 保证 ,任何 可 能 违背 因果 关系 的 操作 都 被 禁止 ， 在 确 
保 它 的 事件 列表 中 最 小 时 间 戳 事件 可 以 被 安全 处 理 之 前 ， 该 逻辑 单元 被 阻塞 执行 。 


另外 ， 为 了 使 模拟 框架 的 效率 更 高 ，SimK 对 Pthread 进行 了 高 度 的 优化 ， 采 用 了 无 锁 的 
同步 机 制 ， 并 支持 在 用 户 级 对 线程 进行 调度 。 


SimK 向 外 提供 了 应 用 程序 接口 (API)， 可 以 方便 地 将 模块 化 的 模拟 器 并 行 化 ， 在 本 章 
主要 介绍 如 何 使 用 SimK 模拟 框架 对 Godson-T 众 核 模拟 器 GAS 进行 并 行 化 。 


3.2 GAS 模拟 器 


Godson-T 模拟 器 (GAS) 是 一 款 串 行 模 
拟 Godson-T 芯片 的 事件 驱动 模拟 器 。 
Godson-T 芯片 是 一 球 高 性 能 的 众 核 蕊 片 , 片 
内 含有 64 个 处 理 器 核 ， 采 用 2D-Mesh 的 片 
上 网 络 结构 ， 处 理 器 核 之 间 及 与 L2 缓存 的 
通信 通过 片上 的 路 由 (router) 进行 ,其 结构 
如 图 2 所 示 。 模 拟 器 GAS 的 目标 是 为 
Godson-T 开发 提供 一 个 模块 化 的 、 可 配置 的 
模拟 工具 。 它 使 用 事件 驱动 的 方式 来 模拟 目 
标 系统 ， 即 模拟 模型 由 事件 驱动 ， 从 而 从 一 
个 状态 转变 成 另 一 个 状态 。 在 众 核 系统 中 ， 
事件 会 在 不 同 的 模拟 组 件 中 产生 ， 模 拟 组 件 
包括 处 理 器 核 、 路 由 、 二 级 缓存 等 。GAS 使 
用 全 局 队列 来 控制 事件 的 处 理 ， 并 且 是 时 序 
精确 的 。 


| 


内 存 控制 器 
缓存 | 缓存 | 缓存 | 缓存 
| 于 下 rr 


制 器 


i 
a 


内 存 拘 


| | | | 
L2 L2 L2 L2 
内 存 控制 器 


P-GAS 模拟 器 使 用 SimK 模拟 框架 将 图 2， 拥 有 64 个 处 理 器 核 的 
Godson-T 众 核 模 拟 器 GAS 并 行 化 ， 并 行 目 Godson-T 模拟 器 结构 


标 是 : 将 Godson-T 模拟 器 中 的 模块 划分 到 
不 同 的 线程 上 ， 并 行 运行 模拟 任务 ， 取 得 较 好 的 加 速 比 ， 并 保证 结果 正确 及 模拟 精度 不 受 损 


耗 。 在 并 行 的 过 程 中 , 为 了 得 到 更 好 的 可 扩展 性 ， 要 尽 可 能 减少 模拟 器 原本 代码 和 并 行 模拟 
器 框架 的 代码 修改 量 。 

3.3 P-GAS 的 并 行 化 流程 

模块 的 划分 
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为 了 提高 P-GAS 模拟 器 的 运行 效率 ， 在 模块 划分 时 必须 考虑 组 作 
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F 之 间 的 关联 性 、 通 信 


量 、 负 载 3 
大 、 同 步 开 销 


封装 模块 


在 模块 划分 完成 后 ， 还 需要 对 每 个 划分 


F 衡 等 


因素 , 他 


se 
高 等 问题 。 


F 何 一 个 


因素 处 理 不 当 


有 


SimK 同步 通信 


应 用 程序 接口 ， 将 


SimK : 


; 座 


对 应 通道 的 组 
模块 被 调度 时 
将 所 有 收 到 的 


四 
号 


模块 间 通信 都 是 通过 一 个 SimK 通 
信 通 道 来 进行 。 


模块 产生 消息 后 ， 将 消息 放 入 
冲 区 ， 待 到 通道 所 连接 的 另 一 个 
， 会 查看 自己 所 有 的 通信 通道 ， 
消息 取出 。 


在 串 行 版 本 的 GAS 模拟 器 中 , 所 有 的 模块 


共享 同一 个 全 
会 变 得 很 长 ， 
题 。P-GAS 模 
个 模块 添加 一 


局 队列 ， 由 于 队列 随 模 拟 器 运行 
造成 事件 插入 队列 开销 过 大 的 问 
拟 器 中 模块 划分 完成 后 ， 为 每 一 
个 局 部 队列 ， 取 消 原 来 的 全 局 队 


性 


列 ， 以 模块 为 


的 负载 相对 均 


新 管理 队列 。 因 为 大 部 分 模块 
衡 ， 队 列 长 度 和 使 用 的 内 存 空 间 


ES Ac 


都 可 以 方便 地 


置 管 理 。 


日 


就 是 模块 不 会 
人 述 事 件 9 主要 


导致 发 送 REQ 的 模块 在 时 旬 


收 到 其 周期 值 小 于 模块 当 
j 于 模拟 信号 


改变 之 后 才 收 至 


大 于 所 需 处 理 
的 工作 中 产生 运 


解决 的 方法 是 引入 一 个 0 延迟 


~ 


初始 值 为 0， 


事 八 


运行 时 错误 。 


三 


学 


伯 


了 | 


前 自身 周 
号 线 发 送 REQ / ACK 或 者 REQ / NACK 的 情况 。 这 利 
1 其 人 
的 时 间 戳 , 直接 导致 SmK 的 保守 lookahead 同步 机 制 帮 


F 的 计数 器 ， 给 每 个 模块 增加 


可 能 导致 并 行 后 的 系统 有 负载 不 均 或 通信 量 


的 子 系统 加 入 一 个 独立 的 事件 队列 ， 同 时 加 入 
其 封装 成 一 个 SimK 式 的 模块 , 封装 后 的 模块 如 


名 


3 所 示 。 


图 3. 封装 后 的 模块 示意 
改进 SimK 的 同步 通信 机 制 ， 使 其 适应 GAS 模拟 器 的 特殊 性 
P-GAS 模拟 器 沿用 SimK 的 保守 提前 量 (lookahead) 同步 ， 这 种 机 制 


能 正确 运行 的 前 提 
的 事件 。GAS 模拟 器 中 存在 一 种 0 延 
事件 的 出 现 会 
也 模块 返回 ACK/NACK， 而 此 时 的 模块 时 间 
开行 GAS 模拟 器 


期 什 


hb 导 


个 标识 变量 flag， 其 


本 模块 的 处 理 函 数 有 


每 次 收 到 一 个 


地 判断 出 当前 
钟 是 否 可 以 前 


ACK 或 NACK 时 ， 就 ; 


REQ 请 求 要 
各 和 1ag 减少 1。 


发 送 到 其 他 模块 的 时 候 , 就 将 flag 增加 1， 
根据 这 个 flag 标志 ， 模 块 可 以 很 简单 


进 。 


4 ” 众 核 集群 模拟 


在 实现 了 将 并 行 离 散 寻 


将 处 理 器 核 的 
模 的 众 核 芯 片 
看 ， 针 对 我 们 
器 扩展 为 拥有 
模拟 ; 


第 二 


同期 是 否 仍 会 有 自己 要 求 其 他 模块 发 送 的 事件 到 来 , 从 而 根据 这 一 点 来 决定 时 


和 件 模拟 算法 运用 到 
数量 增加 ， 以 验 训 


怕 


单 世 片 内 众 核 模拟 器 的 并 行 加 速 后 ， 我 们 希望 
FE 该 方法 在 芯片 天 


风 模 扩大 之 后 的 可 扩展 性 ,并 希望 针对 和 干 核 规 


做 一 些 探索 性 研究 。 
希望 研究 千 核 体系 结构 
1024 个 处 理 器 核 的 串 行 模拟 器 ， 


， 将 多 个 GAS 模拟 器 以 集群 的 方式 进行 互 


针对 现 有 模拟 器 ， 我 们 将 千 核 模拟 作为 一 个 目标 。 直 观 来 
的 需求 ， 有 两 种 解决 方案 : 


AAA 


第 一 ， 将 原 有 的 GAS 模拟 
j SimK 将 其 并 行 ， 完 成 单 片 千 核 的 
连 ， 组 成 一 个 众 核 的 集群 模拟 器 ， 该 


然后 采 


大 规模 众 核 体系 结构 的 并 行 模拟 


集群 也 可 采用 SimK 作为 并 行 框架 进行 并 行 加 速 。 


经 过 对 比分 机， 我 们 采用 了 第 二 种 方案 。 原 因 在 于 第 一 种 方案 中 ， 修 改 现 有 串 行 模 拟 器 
的 工作 量 较 大 ， 且 扩展 性 不 佳 。 而 采用 集群 的 方式 进行 模拟 ， 对 现 有 的 串 行 模拟 器 只 需 添 加 
一 些 模块 ， 并 且 也 能 使 模拟 器 方便 地 在 多 个 宿主 机 上 工作 ， 可 扩展 性 可 以 得 到 良好 的 保证 。 


我 们 的 目标 是 开发 一 个 时 钟 精确 的 众 核 集群 模拟 器 ， 基 于 GAS 模拟 器 和 SimK 两 个 工 
作 的 积累 ， 对 Godson-T 集群 进行 模拟 ， 并 在 该 集群 上 移植 通信 和 库 ， 运 行 简单 的 应 用 程序 。 
我 们 所 希望 模拟 的 系统 结构 如 图 4 所 示 。 为 此 ， 我 们 开发 了 一 个 用 于 模拟 该 目标 结构 的 众 
核 集 群 模拟 器 一 一 P-Gcluster。 


4 


16 个 刀片 通过 
一 级 交换 连接 


处 理 内 核 


内 存 控制 Private I-$ 


EE 
DTA ) 


中 和 


每 片 Godson-T 上 有 64 个 小 核 


图 4. 拥有 4096 处 理 器 核 的 Godson-T 集群 结构 


4.1P-Gcluster 中 网 卡 及 交换 机 模块 的 设计 


在 原 有 的 GAS 模拟 器 中 ,没有 与 外 界 的 交互 模块 ， 所 以 如 果 将 多 个 GAS 模拟 器 通过 互 
连 的 方式 组 成 千 核 规模 的 集群 方式 ， 需 要 为 GAS 模拟 器 增加 一 个 网 卡 模块 ， 如 图 5 所 示 ， 
主要 模拟 网 卡 的 控制 寄存 器 、 状 态 寄存 器 和 数据 缓冲 区 。 


而 使 用 交换 机 将 各 个 GAS 模拟 器 的 网 卡 进行 连接 ， 就 可 以 组 成 一 个 众 核 集 群 。 其 中 ， 
网 卡 作为 GAS 模拟 器 与 交换 机 之 问 传输 数据 的 桥梁 。 在 GAS 模拟 器 中 , 网 卡 发 送 一 个 数据 
包 的 过 程 可 以 概括 为 三 步 : 第 一 ，GAS 模拟 器 往 网 卡 缓冲 区 写 数 据 ， 第 二 ，GAS 模拟 器 给 
网 卡 发 一 个 事件 ， 第 三 ， 网 卡 往 交 换 机 发 送 数 据 包 。 详 细 流 程 如 图 6 所 示 。 


> 


于 9 卷 第 0 


对 于 网 卡 的 模拟 ， 不 同 的 精度 体现 在 网 卡 往外 发 包 这 


接口 


是 一 样 的 。 在 网 卡 设计 ， 
度 不 同 ， 设 计 了 简单 网 卡 和 基本 网 - 
两 种 网 卡 均 使 用 数学 


图 5. GAS | 
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读 写 控制 器 
控制 寄存 器 
上 网 卡 结构 示意 图 
步 ， 但 是 网 卡 模块 与 处 理 器 核 的 


， 我 们 根据 模拟 的 粒 
FE 两 种 。 这 
建 模 方式 模拟 各 个 阶段 延 


迟 ， 而 基本 网 卡 相 对 于 简单 网 卡 增加 了 数据 包 


在 缓冲 


区 中 的 提 


E 队 延迟 以 及 流量 


为 了 真实 模拟 硬件 环境 ! 


控制 机 制 。 
网 卡 的 工作 过 程 ， 


在 我 们 的 基本 网 卡 中 ， 加 入 了 流量 控制 机 制 。 


流量 控制 是 网 络 中 各 个 组 件 之 间 月 
收 流量 控制 单元 的 一 利 
据 包 的 发 送 时 机 。 流 量 控制 的 目的 是 在 不 3 
缓冲 区 溢出 的 前 提 下 


于 发 送 和 接 
同步 协议 ， 由 它 决定 数 


保 数据 可 以 成 功 地 | 


起 
数 


据 发 送 方 传递 到 数据 接收 方 ， 也 就 是 说 流量 控 


制 是 交换 收发 双方 绥 
在 我 们 的 系统 ， 
Ccredit) 的 流量 控制 机 
为 接收 缓冲 区 的 数量 ， 


个 GAS 模拟 器 
组 件 ， 在 SimK 


递 ，! 
功能 一 般 


软 从 


' 区 状态 的 一 种 方式 。 


我 


~ 


站 采用 了 基于 相对 信用 
0 。 首 先 设置 信用 


之 间 则 


它 也 代表 接收 方 接收 数据 包 的 能 
在 模拟 器 中 ， 网 卡 模块 作为 GAS 模拟 器 的 补充 ， 负 责 GAS 模拟 器 与 外 界 的 通信 。 而 多 


[= 
让 


数据 存 入 网 卡 缓冲 


数据 全 部 写 入 缓冲 


[= 
让 


网 卡 开始 发 送 数据 包 


图 6， 网卡 发 送 数据 流 


， 该 机 制 的 工作 原理 如 


程 


图 7 所 示 。 


需要 交换 机 模块 进行 连接 。 在 系统 


中 注册 ， 并 1 


FE 队 结构 组 成 ， 而 控 和 


F 实 现 ， 此 处 不 予 讨论 。 


SimK 进行 调度 。 
交换 机 功能 可 以 分 为 数据 转发 和 控制 两 个 部 分 ， 其 : 


交换 结构 和 提 关 功 能 负责 交换 机 的 配 : 


EL As 人 
1 


巨 


， 交 换 机 模块 作为 SimK 的 一 个 


数据 转发 功能 负责 数据 的 快速 传 
里 以 及 路 | 


填充 等 。 控 制 


按照 单个 GAS 模拟 器 内 拥有 64 个 处 理 器 核 的 规模 ， 我 们 在 集群 模拟 器 中 ， 需 要 16 个 


GAS 模拟 器 才能 达到 1024 个 处 理 器 核 的 规模 。 所 以 我 们 在 设计 交换 机 模块 
16 个 端口 ， 分 别 连 接 16 个 GAS 模拟 器 的 


当 SimK 对 交换 机 运行 进行 调度 时 ， 交 换 机 轮 询 


网 卡 模块 。 
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1 的 16 个 端 


时 ， 为 其 设置 了 


， 检 查 是 否 有 数据 包 


大 规模 众 核 体系 结构 的 并 行 模拟 


到 达 。 有 数据 包 到 达 时 ， 接 收 数据 包 ， 将 其 放 到 交换 机 的 缓冲 队列 中 ， 并 重复 检查 端口 是 否 


还 有 没有 接收 的 数据 包 , 直到 所 有 数据 包 接 收 完成 。 然 后 识别 接收 到 的 数据 包 . 


惟 ， 若 与 当前 时 间 一 致 ， 则 本 周期 
将 数据 包 发 送出 去 , 否则 交换 机 此 
次 的 调用 结束 ， 直 到 下 一 次 被 
SimK 调用 。 


上 面 已 经 提 到 ， 为 了 避免 数据 
包 在 传输 过 程 中 的 丢失 , 更 加 精 古 
地 模拟 真实 硬件 , 我 们 在 基本 网 卡 
中 添加 了 流量 控制 机 制 。 为 配合 基 
本 网 卡 中 的 流 控 机 制 , 交换 机 模块 
也 增加 了 对 流 控 的 文 持 。 为 了 模拟 
数据 包 在 交换 机 中 的 排队 延 时 , 我 
们 设置 了 1 个 时 钟 周期 内 交换 机 
可 以 发 送 数 据 包 的 个 数 上 限 。 在 1 
个 时 钟 周期 内 , 即使 还 有 数据 包 没 
有 人 处理 完毕 , 交换 机 也 必须 停止 这 
一 时 钟 周期 内 的 工作 , 并 将 所 有 未 


-所 带 的 时 间 


1 
发 送 方 ” 上 接收 方 
| 即将 到 达 的 传输 
Nera 
r 
1 一 一 队列 中 的 
I “ 胞 元 ” 
1 
le 
1 
Tx_cnt 1 Fwd_Cnt 
---f- 
afaioc 
y 1 \- 一 一 一 
crd_Bal | Tx_Cnt-Fwd_Cnt 
=Buf_Alloc | 
- (Tx_Cont- I 
Fwd_cnt ) ， 


图 7. 基于 信用 的 流 控 机 制 原理 


处 理 的 数据 包 上 的 时 间 惟 加 1， 以 便 下 一 个 时 钟 周 期 继续 发 送 。 
4.2 P-Gcluster 中 片 间 互 连 网 络 的 设计 
在 多 个 GAS 模拟 器 进行 互 连 时 ， 要 在 模拟 的 第 一 步 实现 无 阻塞 的 网 络 ， 只 给 出 数学 分 


析 的 传送 包 的 延迟 , 不 模拟 包 对 组 ; 


行 互 连 。 最 为 简单 、 成 本 最 低 的 


输 延 迟 还 可 以 保持 在 比较 低 的 水 平 
而 此 时 总 线 也 会 成 为 节点 间 通 信 的 
种 互 连 可 供 选 择 : 交叉 开关 互 连 、 


综合 几 种 互 连 的 特征 以 及 我 们 目前 


， 但 是 随 着 节点 数量 的 增多 ， 总 线 上 的 竞 


' 区 的 竞争 情况 。 众 核 集群 的 多 个 节点 可 以 有 多 种 方式 进 
种 结构 是 总 线 式 互 连 。 这 种 结构 在 无 竞争 的 情况 下 ， 传 


会 越发 明显 ， 


上 瓶颈， 不 利于 节点 的 扩展 。 针 对 集群 系统 ， 一 般 有 以 下 几 


二 维 Mesh〔 网 状 网 ) 互 连 或 者 胖 树 互 连 。 


的 模拟 规模 ， 我 们 选择 了 胖 树 互 连 的 方式 。 胖 树 在 很 


多 高 性 能 计算 系统 中 得 到 了 广泛 的 应 用 。 由 于 胖 树 的 主要 特点 是 等 分 带宽 , 克服 了 一 般 二 又 
成 为 系统 瓶颈 、 没 有 元 余 通路 以 及 容错 性 能 交叉 的 缺点 ， 


树 或 者 多 又 树 中 可 能 出 现 的 根 节 点 
从 叶 节 点 到 根 节点 的 通信 带宽 逐步 


增加 ， 包 含 众多 宛 余 链 路 ， 为 实现 可 靠 性 提供 了 基础 。 且 
胖 树 能 够 满足 高 带宽 、 低 延迟 和 可 扩展 的 需要 。 


P-Gcluster 的 整体 拓扑 如 图 4 所 示 。 每 个 刀片 由 4 个 GAS 模拟 器 组 成 ，! 


成 一 个 小 的 集群 。 在 集群 中 ， 可 以 
我 们 的 模拟 中 ， 集 群 结 构 采 用 的 是 


16 个 刀片 组 


采用 比较 典型 的 m-port n-trees (m- 端 口 n- 树 ) 结构 ， 在 


一 级 胖 树 16-port 1-tree 结构 。 


4.3 P-Gcluster 上 的 两 级 并 行 环 境 


拥有 了 网 卡 和 互连网 络 之 后 ， 集 群 模拟 器 的 平台 部 分 基本 成 型 ， 但 在 这 个 平台 上 运行 并 


测试 程序 还 需要 有 通信 库 的 支持 ,以 便 在 平台 上 进行 开发 和 运行 程序 的 工作 。 在 GAS 内 部 ， 


经 过 SimK 的 并 行 化 ， 已 经 支持 pthread 的 多 线程 运行 。 但 是 ， 在 集群 模拟 器 ! 
器 上 移植 了 MPIC， 以 便 在 此 平台 上 进行 应 用 程序 的 


可 扩展 性 的 目标 ， 我 们 在 集群 模拟 
发 。 


， 为 了 达到 
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首先 , 为 了 测试 MPI 中 六 个 基本 的 函数 , 我 们 在 众 核 集群 模拟 平台 上 移植 了 简化 版 本 的 
通过 这 个 简化 MPI 的 测试 ， 验 证 了 MPI 在 该 平台 上 可 以 正确 运行 。 接 着 我 
们 又 移植 了 目前 被 广泛 采用 的 MPICH， 以 更 好 地 支持 MPI 的 所 有 函数 ， 并 方便 应 用 程序 在 
集群 模拟 器 上 的 开发 。 


通过 MPICH 的 移植 ， 我 们 搭建 了 一 个 两 级 并 行 的 混合 编程 环境 ， 在 多 个 处 理 器 世 片 之 
间 通 过 消息 传递 进行 片 间 通 信 ， 而 在 单个 处 理 器 芯片 中 ， 各 个 处 理 器 核 通过 pthread 并 行 运 
行 ， 与 众 核 集 群 的 结构 比较 吻合 。 


4.4 P-Gcluster 多 进程 多 宿主 机 的 扩展 


于 宿主 机 资源 有 限 ， 随 着 所 模拟 系统 规模 的 增长 ， 如 果 需 要 模拟 的 节点 数 超过 宿主 机 
上 拥有 的 物理 处 理 器 核 数 量 , 在 单个 宿主 机 上 进行 模拟 时 宿主 机 性 能 会 成 为 模拟 的 瓶颈 。 为 
一 步 提高 模拟 性 能 ， 我 们 需要 将 宿主 机 进行 扩展 ， 在 宿主 机 集群 上 模拟 目标 集群 系统 。 


在 跨 主 机 的 模拟 中 ， 需 要 解决 如 下 问题 : 
1. 底层 网 络 通 信 需 要 通过 套 接 字 〈Socket)， 需 要 MPI 的 文 持 ; 


2. 在 多 宿主 机 上 运行 模拟 器 时 ， 需 要 一 个 统一 的 运行 时 环境 ， 文 持 单一 系统 映像 ， 负 
责 给 每 个 宿主 机 进行 编号 ， 任 务 分 配 并 支持 并 行 编程 中 的 集合 操作 等 


5 ”实验 


模拟 器 最 为 重要 的 两 个 评价 指标 Splash-2 kernel 加 速 比 
为 模拟 器 的 速度 以 及 模拟 器 的 精度 。 我 
们 在 本 文 所 描述 的 众 核 模拟 器 平台 和 
众 核 模 拟 集 群 上 分 别 对 其 进行 了 测试 ， 
以 下 是 一 些 测试 结果 。 


对 于 众 核 模拟 器 P-GAS, 我 们 采用 
SPLASH-2 Kerneltg 并 行程 序 测试 集 ， 
它 是 一 个 被 广泛 使 用 的 用 于 测试 分 布 
式 共享 存储 多 核 处 理 器 的 测试 集 。 测 试 
程序 包括 了 很 多 使 用 率 非 常 高 的 科学 


计算 应 用 , 所 以 非常 适合 用 于 测试 高 性 FFT 基数 排 序 LU 分 解 三 角 分 角 | 
能 计算 系统 。 本 文 使 用 的 实验 平台 为 4 ma 
CPU 的 AMD Opereton 8347SMP 系统 加 8 线程 园 16 线程 SS 
(总 共 16 核 )。 图 8 为 在 P-GAS 模拟 图 8. P-GAS 模拟 器 上 多 线程 并 行 
器 上 运行 SPLASH-2 Kernel 所 得 到 的 运行 SPLASH-2 的 加 速效 果 

加 速效 果 。 图 中 FFT: 快速 傅 里 叶 变 换 


表 1 列 出 了 P-GAS 模拟 器 在 不 同 线程 运行 SPLASH-2 时 的 周期 数 与 原 串 行 模拟 器 GAS 
相 比 的 差异 。 可 以 看 到 ，P-GAS 模拟 器 在 16 线程 运行 时 保证 性 能 得 到 平均 10 倍 提 升 的 同 
时 ,也 保持 了 很 高 的 精度 ,实现 了 一 个 在 速度 与 精度 两 方面 都 能 达到 要 求 的 并 行 众 核 模拟 器 。 


对 于 众 核 集 群 模拟 ， 我 们 主要 测试 了 P-Gcluster 的 可 扩展 性 。 我 们 在 众 核 集群 模拟 器 上 
测试 了 cpi、 点 积 乘 以 及 矩阵 乘法 等 测试 用 例 。 得 到 的 性 能 效果 如 图 9 所 示 。 


表 1.P-GAS 上 多 线程 


FFT” ”基数 排序 ” LU 分 解 

16 线程 0.01% 0.07% 0.01% 

8 线程 0.00% 0.44% 0.01% 

4 线程 0.01% 0.07% 0.00% 

2 线程 0.01% 0.51% 0.00% 

单线 程 0.01% 0.01% 0.00% 
快速 全 里 叶 变换 “Radix 


大 规模 众 核 体系 结构 的 并 行 模拟 


行 运行 SPLASH-2 与 串 行 版 本 的 周 


期 数 误 差 
三 角 分 解 ”全 部 
0.17% 0.07% 
0.14% 0.05% 
0.02% 0.01% 
0.02% 0.01% 
0.14% 0.06% 
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上 多 线程 


并 行 运行 的 加 速效 果 


图 中 cpi: 计算 元 值 的 算法 ; fox: 一 种 矩阵 来 法 的 并 行 算法 。 


我 们 对 多 进程 的 情况 也 进行 
了 一 些 测试 ， 主 要 测试 了 点 积 乘 和 乱 


阵 乘法 在 多 进程 下 的 可 扩 


果 如 图 10 所 示 


展 性 ， 其 结 


可 以 看 到 ， 随 者 


进程 数量 的 增加 ， 


众 核 集群 模拟 器 中 各 进程 


间 需 要 传递 


的 数量 增多 ， 网 卡 以 及 互连网 络 仍 有 


进一步 的 优化 空间 。 


6 总 结 


150 
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进程 数 
图 10.P-Gcluster 


4 16 
进程 数 


F 多 进程 并 行 运行 的 结果 


众 核 已 经 成 为 当今 蔚 片 发 展 的 趋势 ， 而 模拟 器 在 芯片 开发 中 起 了 关键 的 作用 。 如 何 提高 


众 核 模拟 器 的 模拟 效率 ， 使 其 模拟 规模 扩大 就 成 为 一 个 下 
行 版 本 。 为 了 能 够 使 P-GAS 的 模拟 效率 更 高 ， 我 们 拆 分 了 GAS 模拟 器 的 全 
局 队列 ， 根 据 GAS 模拟 器 的 拓扑 进行 了 有 效 的 模块 划分 。 在 高 效 SimK 并 行 框架 基础 上 ， 


结构 模拟 器 的 3 


我 们 有 效 地 解决 了 P-GAS 模拟 器 的 零 延 迟 同步 问题 。 


究 热点 。P-GAS 是 Godson-T 体系 
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我 们 从 加 速 比 和 精度 损耗 两 个 方面 对 并 行 效果 进行 了 分 析 。 模 拟 器 达到 了 平均 加 速 10 
倍 的 目标 ， 最 高 加 速达 到 13.6 倍 ; 精度 方面 ， 损 耗 最 高 只 有 0.5%， 平 均 不 超过 0.1%， 对 模 
拟 器 的 体系 结构 的 研究 不 会 造成 大 的 影响 。 


进入 2010 年 后 “如 何 模拟 千 核 ”成 为 模拟 器 界 的 热门 话题 。GAS 模拟 器 的 模拟 目标 虽 
然 为 众 核 , 但 是 64 核 的 数量 离 干 核 仍然 存在 一 定 差距 ， 所 以 我 们 以 P-GAS 模拟 器 的 工作 为 
基础 ， 开 发 了 一 个 众 核 集群 模拟 器 ， 同 样 使 用 SimK 作为 并 行 模拟 的 框架 。 随 着 模拟 处 理 器 
核 数 量 的 增加 ， 模 拟 集群 可 以 部 署 在 宿主 机 集群 上 ， 实 现 多 核 集群 模拟 众 核 集 群 ， 充 分 发 挥 
现 有 和 多核 集群 平台 的 优势 ， 快 速 精确 完成 干 核 并 行 模拟 。 


| 
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